Itay Goldstein, Chester S Spatt, Mao Ye, Big Data in Finance, The Review of Financial Studies, 2021;, hhab038, https://doi.org/10.1093/rfs/hhab038Big data is revolutionizing the finance industry and has the potential to significantly shape future research in finance. This special issue contains papers following the 2019 NBER-RFS Conference on Big Data. In this introduction to the special issue, we define the “big data” phenomenon as a combination of three features: large size, high dimension, and complex structure. Using the papers in the special issue, we discuss how new research builds on these features to push the frontier on fundamental questions across areas in finance—including corporate finance, market microstructure, and asset pricing. Finally, we offer some thoughts for future research directions.
1)研究主题作者试图量化企业文化的概念并考察其意义。虽然公司文化一直以来都被视为商业成功或失败背后的重要因素,但数据上的挑战让相关研究难以进行。事实上,在Graham et al.(2018)的访谈研究中,企业高管们推荐了11个度量文化的数据来源,而其中大多数都是非结构化的。这篇文章使用了其中一个资源——财报电话会议记录,并借助自然语言处理(NLP)提取其中代表企业文化的关键要素。2)主要方法首先,作者使用word2vec进行文本向量化。不同于传统粗暴计数的字嵌入方法(即计算邻近词的出现次数并将其作为目标词的向量表示),word2vec通过一组参数预测可能的邻近词,从而倒推出目标词的含义,并将该组参数作为此特定词语的词向量。在学习的过程中,参数一开始是随机初始化的,随后通过反向传播法进行调整。经过一定次数的迭代循环,作者得到了大量固定维数(一般处于50~500之间)的词向量。文章使用5个标普500公司网站中最常提到的词汇作为起点:创新、正直、质量、敬畏和团队。同时,作者也借用Guiso, Sapienza, and Zingales(2015)提供的与各个核心价值相关的“种子词汇”,与5个核心词汇一起作为度量的基准。考虑到某些词语具有学科特征,在金融和其他行业语境下表现出不同的涵义,作者在训练模型后手工检查了核心/种子词汇及其同义词,以确保5个公司文化的定义清晰明了。此外,作者还加入了种子词汇的不同语法形式和同义短语。接下来,作者需要创建每个企业的“文化词典”。任意两个单词之间的相关性由它们词向量的余弦相似度得出。根据这种方法,作者将财报会议记录中的词语与种子词汇联系起来,建立了异质的文化词典。最后,作者人工检查并剔除不合适的词语,如命名实体、特殊涵义词语或过于广义的词汇等。最后一步是在公司-财年层面构建每个观测的文化指标。每种文化的得分是其相关词语的加权计数占总词数的比例。特别地,作者使用反比文档频数权重评价方法(tf-idf)加权。这种方法对频率更高的词汇赋以更低的权重,从而减少对公司“自我宣传”的担忧。3)研究贡献以往关于企业文化的研究主要使用代理变量或采用调查/访谈的方式。这篇文章使用最新的词向量模型来度量文化,从而可以处理大样本的面板数据。在方法论上,词向量模型可以突破传统的词袋模型把字词视为相互独立符号的假设,因此避免了忽略上下文语境导致的偏误,将语法表达层面的量化方法推进到语义层面;另外,作者在训练模型中运用半监督机器学习方法,兼顾监督学习和无监督学习的缺点,使之在上述两者都失效的环境下(如缺少已标记的实例、企业属性较为微妙且无法直接从数据得出)仍然可行。4)主要结果如表2所示,对公司的文化评估发现,创新是最常提到的文化词语,而正直是相对最少的。表2 公司文化的描述性统计
1)研究主题随着市场逐渐机器化、算法交易和高频交易越来越普及,从前基于单一市场和简单结构的经验指标可能无法再维持其解释和预测效力。作者使用机器学习方法,检验传统的市场微观结构指标是否仍能解释和预测市场。2)主要方法采用全球87个最具流动性的期货产品的5年波动数据,这篇文章检验了6种市场指标(the Roll measure,the Roll impact,VIX,Kyle’s ,the Amihud measure,VPIN)对5种市场产出(买卖价差、实际波动率、JB统计量、收益率的峰度和偏度、实际收益的序列相关性)的预测能力。作者运用随机森林分类算法进行实现。机器学习中分类的目的是用一组解释变量来预测离散或分类的被解释变量,类似传统回归的最小方差思想。但由于被解释变量具有离散的特点,因此需要用交叉熵或信息增益取代标准的误差函数。特别地,作者将解释变量视为一组特征,将被解释变量视为有限的标签集。对每一个期货合约样本应用算法,得到了从特征变量到标签集的一个映射。为了进一步精确度量不同特征对随机森林层次结构的贡献,作者使用两种特征重要性度量方法:平均不纯度减少(MDI)和平均准确度减少(MDA)。MDI评估森林中每个特征的信息增益,并以其样本数量为权重加权求和,最后标准化得分。对于给定的数据集,特征i的MDI为:
此外,作者还发现进行预测的函数形式取决于其应用场景。在研究单一资产时,简单logistic回归与复杂机器学习算法得到了几乎一样好的结果。对此的解释可能是人们已经对单一资产的市场结构有了深刻的认识。但对跨资产进行分析时,机器学习显著优于简单回归。尽管很少有市场微观结构的理论能解释跨资产交易效应为什么能产生,Easley et al.(2021)的研究却有力证明了资产之间的相互作用可以预测市场产出,且机器学习能解决其伴随的高维数据结构挑战。
1)研究主题与理论Benamar et al.(2021)探究了美国国库券对宏观经济公告的价格反应与信息需求及市场不确定性的关系,发现国债价格的响应程度与对信息的需求大小高度相关。虽然贝叶斯学习模型认为当投资者在事前取得了更多的信息时,事后资产价格受到的影响应该更弱;但作者认为信息需求是内生的,即投资者获取信息的动机来源于结果本身的不确定性。因此,信息需求可以作为市场不确定性的一个代理变量:当外生冲击导致不确定性上升时,投资者将试图获取更多信息,但无法完全抵消额外的不确定性。2)主要方法作者选取了2011~2016年66个非农就业公告作为宏观经济的冲击,并以标题中包含“就业”的网页在新闻发布前两小时内的点击量作为信息需求的代理变量。不同于Li et al.(2021)自己处理数据的做法,作者借助一个商业数据供应商Bitly来帮他们将非结构化数据转换为结构化数据。Bitly是一个短链接供应商,可以缩短新闻等网页的链接长度,使其匹配社交平台的字符数要求,从而促进了信息的传播。此外,Bitly还提供了其短链接的相关统计数据,如点击量、设备使用量及地理位置等。基于此,作者建立了一个信息需求的度量指标(BitlyCounts)。3)主要结果作者按非农就业信息的冲击方向以及相关网页点击量的高低将样本分成四组,绘出国债累计收益率在公告前后随时间变化的图像。如Figure 5所示,信息需求更高时国债价格的波动更大,且没有出现明显的不充分反应或过度反应现象。具体地,作者发现非农就业新闻发布前两小时的相关Bitly点击量每上升一个标准误,美国国库券利率波动大小就会显著增加4至6个基点。
1)研究主题数据窥探(data snooping)一直是实证资产定价领域的普遍问题。当人们想要在上百个异象中找到能解释股票截面收益率差异的因子,或在上千家基金中找到能提供正收益的基金时,标准方法是对样本进行许多独立的t检验并根据显著性做出选择。然而,随着假设检验数量的增加,一些通过t检验的因子可能只是出于运气。这导致这些因子无法在样本外测试中表现出同样的解释力,从而成为数据窥探下的“伪发现”。作者使用了一系列机器学习技术,试图建立一个完整框架来严谨地执行线性资产定价模型中的多重假设检验,并将错误发现率(FDR)控制在一定的程度内,以消除数据窥探的担忧。2)主要方法应对多重检验问题的一个传统方法是Family-Wise Error Rate(FWER),即面临N个检验时对每个检验的显著性水平都设定为5%/N。但是,这可能会导致“因噎废食”的结果:因为极少的潜在伪发现错误而对所有检验设定异常高的门槛,使原本大于零的可能无法被识别出来。因此,文章使用Benjamini and Hochberg(1995)提出的B-H方法,其目标是控制伪发现出现的概率(即错误发现率FDR)。在此基础上,作者综合运用一套技术来减少缺失样本的担忧和增强稳健性。为了填充缺失数值并寻找潜在因子,作者借鉴了矩阵补全法(Matrix Completion),由此构建的潜在因子修正了检验中的相关关系;另外,作者还使用了自体抽样法(Wild-Bootstrap)和筛选法(screening)确保有限样本的多重假设检验的鲁棒性。特别地,作者采用1994~2018期间的对冲基金数据来验证其理论模型。在样本内回归中,根据文章建立的FDR模型选取的正基金数量显著少于单纯做独立t检验的方法,说明一定程度上减轻了“伪发现”的错误;且这一结果在样本外测试中依旧稳健。虽然文章只使用了对冲基金样本,但作者相信这一模型框架在其他资产定价领域中具有同样的应用价值。
大数据研究何去何从
以上六篇文献可以作为金融研究中大数据应用的起点。作为一个新兴领域,大数据伴随着许多问题与机会。我们讨论了几个可行的研究方向,希望能带来启发。我们相信随着时间的推移,这个清单将会不断完善和更新。1. 机器学习当研究面临决策者为计算机的问题时,机器学习可以有较好的应用场景。例如,现有研究资产定价的文献往往使用月度收益率数据或季度的持股数据;但现在利用机器学习技术的交易者却通常在更小的尺度上交易。量化交易的对冲基金巨头如文艺复兴、Two Sigma、D.E. Shaw等,管理着上百亿美元的资产,却因为交易速度快于传统基金且慢于高频交易,而很少出现在金融学术文献的研究范围内。因此,一个可能的研究方向就是连接传统的基于月度数据的研究与高频交易下秒次层面的研究。在这片未开发的领域,应用机器学习不仅是自然的也是必要的。正如心理学对人类行为的剖析造成了行为金融学的兴起,对算法行为的研究或许也可以催生“算法行为金融学”的繁荣。2. 大数据的反馈效应当算法交易成为主流,企业是否应改变其行为?机器学习在投资界的广泛引用以及其对二级市场和公司决策的反馈效应,都暗示了企业应该对大数据革命有所反应。对这一问题的探讨在Cao et al.(2020)中初现端倪,他们发现企业调整了其季报和年报以适应机器交易者的需求。下一步研究可能是考察企业是否在运营的决策中也考虑了算法交易的作用。举例来说,当投资者结构逐渐由以人为主变成以机器为主时,企业是否会更多地投资一些短期的项目?大数据革命是会导致管理者减少对市场价格信息的依赖(因为现在有了更多的信息来源),还是更多地研究价格(因为市场价格包含了更多的投资者信息)?3. 大数据的负面效应虽然大数据为机构投资者或企业提供了更多的有效信息,但其影响并非总是积极的。由于社交媒体大大提升了市场情绪的传播速度和广度,因此在突发事件中市场价格可能会远远偏离其基础价值。在Chawla et al.(2019)的研究中,散户交易造成的价格偏离之所以快速恢复,主要是由于机构套利者进入市场并消除了套利机会。但是,2021年1月的GameStop事件中我们也见证了社交媒体对资本市场的巨大影响力。散户们在社交网站上联合起来,导致了梅尔文对冲基金亏损达53%。散户与机构的相互博弈引起了市场的剧烈波动。因此,大数据对社会在不同方面的影响以及其总效应是一个值得探究的方向。4. 更复杂的数据大数据在金融中最初体现为大体量的数据分析,而最新的技术发展让研究者得以利用自然语言处理(NLP)从文本中提取信息。因此一个有希望的研究方向是通过分析更多的非结构化数据,如音频、视频和图像等,从新的视角看待经典问题。如同本刊提到的Li et al.(2021)从财报电话会议记录中获取企业文化的数据一样,越来越多的学者利用更复杂的数据集开展研究,如卫星图像(Gerken and Painter,2020)。这些数据集可以提供一些简单结构化数据无法捕捉到的经济活动信息,因而具有相应的研究价值。5. 监管在交易越来越机器化的背景下,为人类设立的监管制度是否也需要进行调整是一个有意思的话题。例如,监管者通常会忽略1手以下的交易并免除这些“零碎股”交易的披露要求。然而,机器交易者逐渐变成这种交易的主要参与方,因为他们可以利用算法以小于1手的数量下单,从而规避监管。评估潜在的算法交易问题可能是非常重要的,因为这可能是其他一些常见问题的核心,如做市商是否抢先操作、经纪人是否尽到了信托责任以及内部人员是否存在内幕交易的情况等。另一条与监管相关的研究路径是讨论算法和数据的隐私性和公平性问题。早在2017年,《经济学人》就发表了封面文章称“数据已经取代石油成为当今世界最有价值的资源”,并呼吁对数字经济实行新的监管。数据如何分配、如何定价,数据不公平又会造成什么后果?这一问题亟需新的理论和实证研究。6. 理论本专刊中收录的文献主要是实证型文章,但理论研究也是必需的。机器学习相较于传统计量模型的成功主要源于变量之间的高阶交互项以及非线性特征,因此可以建立新的理论模型来解释为何一个经济变量的影响取决于其与另一个变量的交互作用,或为何一个变量的影响与其自身的大小有关。机器学习是描述世界的一种方式,但我们也需要理论来解释它。机器学习与人工智能的另一个特征进一步强调了理论模型的重要性:人类的行为常常是不一致的,但机器永远基于其底层模型做出决策。Li and Ye(2020)发现其理论模型甚至可以定量地预测重大事件发生后截面上的市场流动性,其中一个可能的原因就是市场参与者主要是算法,而这些算法可能正是使用了与Li and Ye(2020)相似的模型。7. 跨学科未来的大数据研究可能需要更多其他学科的学者参与。对于大规模数据集的处理困境,研究者可以与超级计算中心合作,后者通常拥有较深厚的技术和人力资源,如XSEDE。面对高维数据和复杂结构的挑战,经济学家们可以与数学、统计学或计算机科学的学者合作,利用NLP、语义识别或计算机视觉等技术处理文本和音视频数据。此外,研究者还可以寻找商业数据供应商。J.P. Morgan的报告《大数据与人工智能战略》中列出了一个数据供应商清单,可以有偿处理情感度量或信用卡的使用等另类数据。我们相信,不同学科学者之间的鼎力合作可以拓宽和加深金融经济学的研究,并帮助研究者们克服大数据的挑战。美国国家科学基金会(NSF)将大数据列为其十大理念之一,并为创新的、跨学科的研究提供资金支持。我们希望这篇特刊只是一个开始,未来可以看到更多大数据在金融和政策研究中的应用。
本刊收录的文献
[1] Anand, A., M. Samadi, J. Sokobin, and K. Venkataraman. 2021. Institutional Order Handling and Broker-Affiliated Trading Venues. Review of Financial Studies: this issue.[2] Benamar, H., T. Foucault, and C. Vega. 2021. Demand for Information, Uncertainty, and the Response of US Treasury Securities to News. Review of Financial Studies: this issue.[3] Easley, D., M. Lopez de Prado, M. O’Hara, and Z. Zhang. 2021. Microstructure in the Machine Age. Review of Financial Studies: this issue.[4] Erel, I., L. Stern, C. Tan, and M.S. Weisbach. 2021. Selecting Directors Using Machine Learning. Review of Financial Studies: this issue.[5] Giglio, S., Y. Liao, and D. Xiu. 2021. Thousands of Alpha Tests. Review of Financial Studies: this issue. [6] Li, K., F. Mai, R. Shen, and X. Yan. 2021. Measuring Corporate Culture Using Machine Learning. Review of Financial Studies: this issue.